Bag of Words (BoW)
Bag of Words (BoW) হল একটি জনপ্রিয় এবং সাধারণ টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা একটি টেক্সট ডেটাসেট থেকে বৈশিষ্ট্য (features) তৈরি করার জন্য ব্যবহৃত হয়। এই পদ্ধতির মাধ্যমে, একটি ডকুমেন্ট বা টেক্সটকে একটি "ব্যাগ" হিসেবে ধরা হয়, যেখানে শব্দগুলি তাদের ক্রম ছাড়াই থাকে এবং তাদের সংখ্যাও গুরুত্বপূর্ণ নয়।
বৈশিষ্ট্য
- শব্দের উপস্থিতি: BoW মডেলে প্রতিটি শব্দের উপস্থিতি গণনা করা হয়। এটি শব্দের ফ্রিকোয়েন্সি এবং টেক্সটের মধ্যে শব্দের সংখ্যা বোঝার জন্য ব্যবহার করা হয়।
- ক্রম এবং ব্যাকরণ সংক্রান্ত তথ্য বাদ দেওয়া: শব্দগুলির ক্রম বা অর্থের সম্পর্কের বিবেচনা করা হয় না; কেবলমাত্র শব্দগুলির উপস্থিতি বা অনুপস্থিতি বিবেচিত হয়।
উদাহরণ
যদি আমাদের দুটি ডকুমেন্ট থাকে:
- "আমি ভালোবাসি কুকুর।"
- "আমি ভালোবাসি বিড়াল।"
BoW এ শব্দের তালিকা হবে: ["আমি", "ভালোবাসি", "কুকুর", "বিড়াল"]।
| শব্দ | ডকুমেন্ট 1 | ডকুমেন্ট 2 |
|---|---|---|
| আমি | 1 | 1 |
| ভালোবাসি | 1 | 1 |
| কুকুর | 1 | 0 |
| বিড়াল | 0 | 1 |
ব্যবহার
- টেক্সট ক্লাসিফিকেশন
- তথ্য পুনরুদ্ধার
- স্প্যাম ফিল্টারিং
TF-IDF (Term Frequency-Inverse Document Frequency)
TF-IDF হল একটি পরিমাপ পদ্ধতি যা শব্দের গুরুত্ব বোঝাতে ব্যবহার করা হয় একটি ডকুমেন্টের মধ্যে এবং একটি বৃহত্তর ডকুমেন্ট কালেকশনের মধ্যে। এটি শব্দের গুরুত্ব নির্ধারণ করে, যা টেক্সট ডেটায় বৈশিষ্ট্য তৈরি করার জন্য খুবই কার্যকর।
TF-IDF-এর গঠন
Term Frequency (TF): একটি নির্দিষ্ট ডকুমেন্টে শব্দের উপস্থিতির সংখ্যা। এটি সাধারণত নিম্নলিখিত ফর্মুলার মাধ্যমে গণনা করা হয়:
\[
\text{TF}(t, d) = \frac{\text{Number of times term t appears in document d}}{\text{Total number of terms in document d}}
\]
Inverse Document Frequency (IDF): এটি ডকুমেন্ট কালেকশনে শব্দের গুরুত্ব নির্দেশ করে। এর মাধ্যমে বোঝা যায় যে শব্দটি কতটা সাধারণ বা বিরল। এটি গণনা করা হয়:
\[
\text{IDF}(t, D) = \log\left(\frac{\text{Total number of documents in D}}{\text{Number of documents containing term t}}\right)
\]
TF-IDF: TF এবং IDF এর গুণফল। এটি শব্দটির গুরুত্ব নির্দেশ করে:
\[
\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
\]
উদাহরণ
ধরা যাক, আমাদের তিনটি ডকুমেন্ট আছে:
- "আমি ভালোবাসি কুকুর।"
- "আমি ভালোবাসি বিড়াল।"
- "কুকুর এবং বিড়াল দুটিই পোষ্য।"
এখন "কুকুর" শব্দের TF-IDF এর গণনা করলে, এটি জানতে হবে শব্দটির কতবার উপস্থিতি এবং কতটি ডকুমেন্টে এটি রয়েছে।
ব্যবহার
- তথ্য পুনরুদ্ধার
- টেক্সট ক্লাসিফিকেশন
- ডেটা মাইনিং
উপসংহার
Bag of Words (BoW) এবং TF-IDF হল প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মৌলিক টুল, যা টেক্সট ডেটার বৈশিষ্ট্য বের করার জন্য ব্যবহৃত হয়। BoW শব্দগুলির উপস্থিতি ভিত্তিক তথ্য প্রদান করে, যেখানে TF-IDF শব্দগুলির গুরুত্ব নির্ধারণ করে ডকুমেন্টের মধ্যে। এই পদ্ধতিগুলি মেশিন লার্নিং এবং ডেটা অ্যানালিটিক্সে টেক্সট বিশ্লেষণে অত্যন্ত কার্যকর।
Read more